arxiv：2402.08360v1 [cs.cv] 2024年2月13日__

arxiv：2402.08360v1 [cs.cv] 2024年2月13日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2402.08360v1 [cs.cv] 2024年2月13日

¥ 1.0

热度

大型语言模型（LLM）革命性的自然语言处理（NLP）应用程序正在扩展到多模式输入的领域。由于它们解释图像的影响，多模式LLMS（MLLM）主要用于视觉任务。当前，MLLM尚未扩展到针对特定领域的视觉任务，这需要对视觉信息有更明确的理解。我们开发了一种将特定于域的视觉和视觉语言数据集形成的方法中的统一问题答案格式，称为视觉询问回答指令（VQA-IN），从而将MLLM扩展到特定于域的任务。使用较小版本的LLMS（SLLMS），将VQA-IN应用于训练多个MLLM架构。实验结果表明，所提出的方法在域特定的视觉任务上达到了高分度量，同时还以多任务方式保持其在视觉任务上的性能。

添加pdf代下载 VIP点击下载文件